Ponderación Jerárquica de Ventajas para Aprendizaje por Refuerzo Online de VLAs Descubre HABC: mejora el fine-tuning de políticas VLA con recompensas binarias, alcanzando hasta un 92% de éxito en manipulación bimanual. 2026-06-16 · 2 min